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DAG 分 割 模型 下 的 云 工 作 流 调度 策略 
薛 凡 


( 黄 淮 学 院 创新 创业 学 院 , 河南 驻马店 463000) 


摘 要 : 工作 流 调度 是 工程 管理 领域 中 经 济 有 效 的 优化 手段 ， 为 了 优化 云 工作 流 调 度 的 经 济 代价 和 执行 效率 ， 提 出 一 
种 基于 有 向 无 循环 图 DAG 分 割 的 工作 流 调度 算法 PBWS。 以 工作 流 调度 效率 与 代价 同步 优化 为 目标 ， 算 法 将 调度 求 
解 过 程 划 分 为 三 个 阶段 进行 : 工作 流 DAG 结构 分 割 、 分 割 结构 调整 及 资源 分 配 。 工 作 流 DAG 结构 分 割 阶段 在 确保 任 
务 间 执行 顺序 依赖 的 同时 求解 初始 的 任务 分 割 图 ; 分 割 结构 调整 阶段 以 降低 执行 跨度 为 目标 ， 在 不 同 分 割 间 对 任务 进 
行 重 分 配 ; 资源 分 配 阶段 由 在 选择 代价 最 高 效 的 任务 与 资源 映射 关系 ,确保 资源 的 总 空 闪 时 间 最 小 。 利 用 五 种 科学 工 
作 流 DAG 模型 对 算法 进行 了 仿真 实验 。 结 果 表 明 。PBWS 算法 仅 以 较 小 的 执行 跨度 为 开销 ， 极 大 降低 了 工作 流 执行 
代价 ， 实 现 了 调度 效率 与 调度 代价 的 同步 优化 ， 其 综合 性 能 是 优 于 同类 型 算法 的 。 
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Cloud workflow scheduling strategy in DAG partition model 


Xue Fan 


(Innovation & Entrepreneurship College, Huanghuai University, Zhumadian Henan 463000, China) 


Abstract: Workflow scheduling is a kind of economical and effective method in engineering management area. For optimizing 
the economical cost and scheduling efficiency of cloud workflow scheduling, a workflow scheduling algorithm based on 
Directed Acyclic Graph DAG partition PBWS is proposed. With the goal of optimizing synchronously the workflow scheduling 
efficiency and cost, our algorithm divides the scheduling solution into three stages: DAG partition of the workflow structure, 
partition structure adjustment and resource allocation. DAG partition of the workflow structure is to get the initial tasks partition 
graph when guarantees the execution order-dependency between tasks, the partition structure adjustemnt is to re-allocate tasks 
in different partitions with a goal of reducing execution makespan and the resource allocaiton is to determine the most cost- 
efficient mateches between tasks and resources ensuring the minization of the total idel time of resource. We construct some 
simulation experiments for algorithms by the five types of scientific workflow DAG model. The experimental results show 
PBWS can greatly reduce the execution cost of wrokflow in terms of cost by a large margin with litter overhead on execution 
makespan and realize the synchronous optimization of the scheuduling efficiency and the scheduling cost, whose overall 
performance performs better than the same type of algorithms. 
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务 间 的 顺序 依赖 ， 协 作 完成 一 种 应 用 任务 。 
工作 流 调度 本 质 上 是 NP 问题 ， 多 数 工作 通过 设计 单 目 标 
云 数 据 中 心 可 以 提供 巨大 的 IT 能 力 ， 服 务 于 社交 、 邮 件 、 ”函数 进行 优化 。 例 如 在 文献 [2~4] 中 ， 作 者 设计 调度 算法 以 寻找 


引言 


金融 和 工业 等 诸多 领域 。 尤 其 在 科学 计算 和 工程 控制 应 用 中 ， 满足 预先 定义 的 工作 流 执行 截止 期 限 的 最 低 价 调度 方案 。 比 较 


爆炸 式 、 复 杂 大 规模 的 数据 增长 对 计算 环境 提出 了 更 高 的 要 求 。 ”而 言 ， 在 文献 [5~8] 中 ， 所 设计 的 算法 则 是 寻找 满足 预先 定义 的 


该 类 领域 中 的 多 数 应 用 任务 通常 体现 为 工作 流 (workflow) 形 ” 预算 的 最 快 Y 


| 


是 以 降低 执行 


度 方案 。 相 比较 而 言 , 文献 [9~11] 则 


式 品 , 其 结构 可 参见 如 图 1 所 示 的 五 种 常规 科学 领域 的 工作 流 。 ”时 间 为 目标 ， 而 未 考虑 费用 约束 问题 。 虽 然 以 上 方法 引入 了 预 
工作 流 中 ， 每 个 任务 作为 工作 流 整体 的 一 部 分 ， 或 者 作为 初始 算 或 截止 期 限 约束 ， 但 总 体 来 说 ， 算 法 优化 均 是 单 目 标 优化 为 


数 ] 


昌 的 传送 者 ， 或 者 作为 中 间 数 据 的 中 继 者 ， 进 而 形成 一 种 任 ”限制 的 ， 未 能 很 好 地 实现 符合 云 环 境 资源 使 用 特征 的 工作 流 调 
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本 文 同 步 考虑 执 
种 基于 DAG 分 割 
构 划 分 为 包括 多 个 但 


(d) CyberShake 


图 1 科学 工作 流 结构 


了 跨度 和 执行 代 


的 工作 流 调 度 算 法 。 算 法 将 了 
E 务 的 多 个 群 组 (分 逢 


价 的 同步 最 小 化 ， 并 设计 
[ 作 流 DAG 结 


| partition )， 进 而 实现 


分 割 与 云 资源 动态 能 力 的 优化 匹配 。 算 法 通过 三 阶段 的 调度 优 


化 ， 最 终 可 以 实现 了 
1 ”系统 模型 


工作 流 表示 为 一 个 有 向 无 循环 
任务 集 ， E 为 边 o 每 条 边 连 接 


约束 。 给 定 资源 集合 R=R1,R2,...,Rm， 资 源 绰 


[ 作 流 调度 效率 与 代 


多 


实例 类 型 进行 配置 ， 包 括 m4.xlarge、c4.2xlarge 和 13.4xlarge。 


每 个 资源 集 RiER 


核 、 处 理 能 力 、 内 存 和 存储 空间 。 基 于 资源 能 力 对 集合 R 进行 
有 低 于 集合 的 资源 
王 务 ww 才 可 以 开始 扫 


排序 ， 若 六 则 珊 
能 力 。 仅 当 接 收 父 人 有 


同 质 资源 构成 ， 配 


个 在 


的 均衡 。 


DAG G=<VE>, 其 中 了 V 为 
E 务 ， 代 表 任 务 间 的 顺序 
关 以 Amazon EC2 的 


不 同 数量 的 处 理 器 内 


行 。 在 所 有 父 任 务 中 ， 最 述 发 送 数 据 的 人 
务 MIP。 令 c(i 为 人 
间 可 定义 为 执行 跨度 makespan。 

对 于 任务 ve 了 VV 的 最 早 开 始 时 


可 定义 为 


EST(v,) | 


E 务 vi 与 包间 站 


集合 Ri 中 的 资源 
E 务 产生 的 数据 后 ， 子 


E 务 称 为 最 有 影响 父 任 


的 通信 代 


日 


0,v, 为 入 口 任务 
EFT(MIPQY,)) + cro 否则 


EFT(v,)= EST(V,)+w, 
其 中 ; wi 为 任务 vi 的 执行 时 间 。 当 六 


[ 作 流 的 完成 时 


EST 和 最 早 完成 时 间 EFT 


(1) 


2) 


周 度 至 相同 资源 上 的 男 一 个 


任务 的 实际 完成 时 间 晚 于 EST(w) 时 ,任务 的 实际 开始 时 间 AST 


和 实际 完成 时 i 


四 AFT 不 同 于 EST 和 


工作 流 的 调 


结束 于 出 口 任务 。 折 
于 调度 任务 的 资源 能 
为 计算 代价 (时 间 )， 其 中 , i 为 任务 六 E 严 的 索引 
及 ER 的 索引 。 为 了 简化 计算 过 程 ， 为 每 个 资源 外 
入 一 个 常量 因子 cvi>0。 给 定 和 有 


度 跨度 makespan 了 
行 时 间 的 影响 ， 该 路 径 拥有 最 高 的 代价 〈 通 信 币 
E 务 vie TV 的 计算 代价 (执行 时 间 wi) 取决 


E 要 受 关键 路 径 上 任务 的 执 
0 计算 代价 )， 并 


。 资 源 能 力 越 高 ， 执 行 时 间 越 短 。 令 w 


E 务 w， 每 个 资源 集 


， J 为 资源 绰 
合 Ri ER 引 


uy 


A= 


合 单 量 cw (Ri 


ER) 代表 任务 的 近似 相对 执行 时 间 。 例 如 ， 若 cws=4， 则 任务 
的 执行 时 间 wi =(1/4)w; 。 令 为 每 小 时 利用 资源 集 RiER 中 资 
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源 的 代价 ， 该 值 取决 于 资源 能 力 ， 若 <， 则 t<w。 


0 


[ 作 流 调度 目标 即 为 分 配给 定 工 作 流 的 任务 至 R 中 资源 集 
SS， 同时 确保 资源 利用 总 代价 和 任务 执行 跨度 最 小 化 。 
算法 设计 
算法 概述 
PBWS 算 法 的 目标 是 分 割 工 作 流 任务 形成 任务 群 组 ， 进 而 
生 有 效 的 资源 与 任务 间 的 映射 ， 分 割 目标 是 简化 资源 分 配 过 
星 。 基 于 任务 分 割 区 域 间 的 数据 依赖 性 ， 决 定 分 配 至 每 个 分 割 
的 资源 能 力 , 并 确保 工作 流 执行 跨度 与 代价 最 小 化 .PBWS 算 法 
三 个 步骤 组 成 : a) DAG 分 割 步 又; b) 分 割 调整 步骤 c) 资 
源 分 配 步骤 。 
DAG 分 割 步 又 的 目标 是 划分 给 定 的 工作 流 DAG 结 构 , 使 得 
得 到 的 DAG 分 割 在 确保 任务 间 依 赖 的 同时 ， 简 化 资源 分 配 过 程 ， 
而 在 后 续 步 骤 中 ， 每 个 分 割 均 视 为 单个 节点 对 待 。 分 割 调整 步 
又 中 ， 为 了 进一步 降低 执行 跨度 ， 某 些 任 务 需 要 重新 分 配 并 和 
新 划分 至 不 同 分 割 中 。 资 源 分 配 步 又 的 目标 是 实现 任务 与 资源 
间 代 价 最 有 效 的 映射 关系 ， 确 保 资 源 总 空闲 时 间 最 小 化 。 
2.2 ”DAG 分 割 步骤 
算法 1 是 DAG 分 割 步骤 的 伪 代 码 。 算 法 中 , 首先 需要 在 考虑 
工作 流 的 关键 路 径 CP 的 执行 时 间 情 况 下 决定 分 配 至 每 个 分 割 
的 任务 数量 。 由 于 关键 路 径 上 的 任务 执行 时 间 之 和 “〔 即 关键 路 
径 长 度 , 表示 为 KCP) ) 代 表 执 行 跨度 makespan 的 下 限 ( 最 优 解 )， 
DAG 分 割 需 要 确保 属于 相同 分 割 中 的 任务 的 总 执行 时 间 小 于 
或 等 于 1(CP) ( 步 又 8 中 的 while 循 环 )。 由 于 处 于 关键 路 径 CP 上 任 
务 被 调度 至 同一 资源 上 ， 所 以 关键 路 径 长 度 仅 包 括 执行 时 间 ， 
而 在 任意 其 他 分 割 (算法 1 中 的 P') 中 的 任务 调度 长 度 则 包括 执 
行 时 间 和 通信 时 间 。 分 割 P 的 长 度 ( 即 代价 ) 定义 为 


WS 


[ey 


IP)=2 w+ 2, co G) 


ieP e(vi,vi)eP 


其 中 : 等 式 右 边 第 一 项 为 分 割 P 中 的 任务 在 最 低 价 资源 w! 上 
的 计算 代价 之 和 ; 第 二 项 为 分 割 P 中 任务 间 的 通信 代价 之 和 。 
DAG 分 割 步骤 从 工作 流 结 构 中 最 低层 次 的 任务 开始 执行 
于 1 (b) 中 的 工作 流 不 同 层次 )， 该 步骤 添加 任务 至 当前 
构造 的 分 割 中 , 直到 在 不 违背 KCP) 限 制 的 情况 下 没有 新 任务 添 
加 进来 为 至 ， 即 步骤 12。 一 旦 属于 相 | 
分 割 中 ， 处 于 下 一 层次 (高 层次 ) 的 任务 继续 进行 分 割 ， 直 至 
所 有 任务 被 分 配 至 不 同 分 割 中 为 止 。 
算法 1 DAG 分 割 过 程 
Procedure Partitioning(G,/(CP)) 


多 


层次 的 所 有 任务 分 配 至 


ei 


J 


Input:G=<VE>,/(CP) 
Output:P=<p1,p2,...> 
(collection of partitions) 
N<—order tasks based on level 
while N is not empty do 


忆 二 
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录用 稿 

8. while /(P )</(CP) do 

9. add first task in N to P’ 
10. remove the task from N 
11. end while 

12. if 1(P’)>I(CP) then 

13. undo last step 

14. end if 

15. addP’'toP 

16. end while 

17. return P 

18. end ee 


2.3 分割 调整 步 


为 了 确保 DAG 人 


割 步骤 中 产生 的 各 


E 务 分 


配 过 程 中 拥有 最 优 的 粒度 ,不 同 分 割 的 任务 需要 重新 分 配 调整 。 


寻找 最 优 的 分 割 主 要 涉及 每 个 分 割 


割 间 的 
算 。 对 于 每 个 


王 务 vi 


基于 这 两 个 值 , 对 于 每 个 人 


务 类 


中 的 任 


量 及 其 分 配 的 资 


于 任务 分 割 与 任务 间 的 数据 依赖 存在 相互 关系 ， 不 同 分 
王 务 重新 分 配 时 需要 


涉及 EST 和 EFT 时 间 值 的 重新 计 


值 表示 vi 的 子 任务 的 平均 EST, 日 


任务 ， 计算 两 个 值 分 别 为 Sest 和 Desto 任务 Vi 


子 任务 与 vi 


新 分 配 至 另 


氏 执行 跨度 。 
分 割 调整 对 执行 跨度 和 
于 处 于 不 同 分 
如 果 重 新 分 配 的 


分 割 (于 


执行 


割 的 父 丰 


该 步骤 可 以 通 


有 最 小 的 EST(w)) 从 而 
过 寻找 sew<pesi 的 
代价 
E 务 的 


的 pest 值 表示 与 vi 同属 一 个 分 割 中 的 任 


的 Sest 
不 在 同一 分 割 中 。 
务 的 平均 EST。 


E 务 wE 太 可 以 决定 是 否 通过 将 vi 重 


j 调 整 六 的 分 割 以 
的 任务 完成 。 这 种 


性 能 具有 重 


要 影响 ， 它 可 


[以降 


执行 导致 


王 务 在 其 分 割 内 拥 


有 子 任务 ， 


该 标准 

将 分 
中 六 表示 分 备 
分 割 v 


新 分 配 至 
中 任务 的 平均 执行 时 间 时 ， 
， 可 以 确 
制 调整 步骤 得 到 的 


,VEV' 通 过 
)) EE' 表 示 任 务 vpEv’ 和 其 在 v' 中 


新 的 分 割 。 


保 任务 


集合 


务 在 重新 分 配 的 分 


疆 果 


全 


仅 当 划 
六 人 


于 7 的 任务 的 最 小 EST， 即 eesto 
2.4 资源 分 配 步 骤 


算法 2 


全 出 了 资源 分 配 步 骤 的 伪 代 码 。 


合 识别 和 资源 分 配 两 个 阶段 。 


分 配 至 每 个 分 
y 分 配 至 次 


个 任务 » 


资源 集合 类 型 。 


es 


资源 集合 


分 配 阶段 的 目 


标 则 是 基于 


决定 最 快 的 调 


度 方案 。 


算法 详 引 


说 明 : 


同 的 分 


资源 集合 


识别 阶段 的 


资源 集合 识别 
割 群 组 ， 即 步 又 


其 子 任 


执行 时 间 小 于 任务 所 在 分 割 

E 务 才 考虑 需要 重 

割 中 尽早 执行 。 

示 为 DAG G=<V E>， 其 

， 瑟 表示 分 割 间 的 数据 依赖 集合 。 介 
条 以 上 的 有 向 边 连 接 ,每 条 有 向 边 e’(v’,v” 

的 父 任务 。 同 时 ， 


该 步 又 包括 资源 引 
识别 阶段 中 ， 需 要 决定 
割 的 资源 集合 类 型 (i,RiER)。 资源 分 配 阶段 中 ， 
源 reRi， 使 得 x 属于 与 vj 所 处 分 割 相同 的 


务 的 等 待 时 间 。 


Chin 
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汉 
守之 
0> 
i 

六 HH 


EP 和 与 Pi 连接 的 父 分 割 。 拥 个 以 上 依赖 关系 
于 多 个 群 组 中 ， 那 么 ， 对 于 每 个 群 组 〈 步 又 8 中 的 
从 拥有 出 口 分 割 的 群 组 开始 作为 一 个 领导 群 组 《出 
括 出 口 任 务 的 群 组 )， 属 于 该 群 组 的 分 割 〈 除 领导 以 乡 
别 其 资源 集合 类 型 〈 步 又 9 的 for 循环)。 在 每 个 群 
分 割 的 资源 集合 
定 资源 旨 
将 该 时 间 记 为 er。 
cP。 获 得 这 两 个 值 后 ， 将 每 个 分 割 的 ertep; 
eest 值 ， 即 步骤 10。 
要 求 执行 时 的 计算 时 间 降 低 量 。 
结果 最 相近 的 cv 的 资源 集合 类 型 至 该 分 割 来 得 到 , 即 步 又 
如 果 任 一 分 割 均 包 含 单 个 分 割 ， 


的 分 割 可 属 
for 循环 )， 
群 组 即 
) 开始 识 
组 中 ， 每 个 
类 型 (i,RiER) 取 决 于 群 组 领导 的 eev 值 。 为 了 决 
居 合 类 型 ,每 个 分 割 需要 识别 其 执行 开始 时 间 , 即 EST， 

此 外 ， 每 个 分 割 需要 计算 其 任务 的 计算 时 间 
除 以 其 群 组 领导 的 
该 除法 结果 表示 为 了 降低 执行 跨度 该 分 割 
该 降低 量 可 以 通过 将 与 该 除法 


则 该 分 割 被 分 配 至 最 低 资源 集 


Fy 


书 


合 类 型 Ri。 一旦 确定 的 一 个 分 割 的 资源 集 
中 的 每 个 任务 的 EST 
任务 的 EST 和 EFT 同时 被 重新 计算 ， 即 步骤 12 一 14。 
别 其 资源 集合 类 型 后 ， 如 果 该 分 割 是 一 个 群 组 领导 ， 则 它 ; 
之 其 群 组 成 员 / 分 割 开 始 执行 资源 集合 
于 多 个 群 组 时 ， 该 分 割 被 分 配 至 最 高 的 资源 集合 

所 有 分 割 确 定 其 资源 集合 类 型 后 ， 


类 型 。 


分 
20。 该 阶段 中 ， 基 于 松 驰 


参数 8 的 值 ， 确 定 每 个 任 
AFT。 参 数 8(0<p<1) 用 于 控制 执行 任务 的 资源 数量 。 增 力 
参数 值 可 以 降低 资源 使 用 的 数量 ， 此 时 相 比 执行 跨度 将 有 和 
执行 代价 的 优化 。 而 降低 该 参数 值 ， 将 有 利 了 
该 阶段 开 


则 其 子 任 


新 分 配 。i 


E 意 两 个 


边 展示 ] 


军 
岗 


A 


阶段 开始 了 


标 是 寻找 分 配 至 分 割 的 
使 得 分 割 间 的 数据 依赖 关系 达到 最 小 化 。 资 源 
松 驰 参 数 5 和 所 识别 的 资源 集合 类 型 


4。 一 个 分 割 群 组 包括 一 个 群 


FF 将 分 割 划 分 为 不 
组 领导 已 


值 代 表 每 个 任务 执行 


且 算 法 利用 最 少数 量 
且 算法 利用 最 多 数量 
示 无 资源 限制 
务 分 配 至 相同 资源 时 , 任务 AST 为 其 
任务 vi 的 UB 为 AFTO)+ci， 其 中 ， 
中 间 任 务 ，c 任务 六 与 六 间 的 通信 


的 资源 ;如 果 =0, 则 任务 AST 设 
的 资源 ,任务 vi 的 LB 为 (MTP)+cumPpD， 


合 类 型 ， 属 于 该 分 割 
和 EFT 即 可 重新 计算 。 在 该 分 割 中 的 子 
分 割 识 


识别 阶段 。 当 一 个 分 害 


F 优 化 执行 跨度 。 
始 于 计算 每 个 任务 AST 的 上 限 VB 和 下 限 ZB。 两 
时 所 人 允许 的 延 时 。 每 个 任务 的 AST 根据 参 
数 6 进行 设置 , 即 步骤 18。 如 果 p=1, 则 任务 AST 设置 为 UB， 

为 LB， 


和 告 


is 


属 


资源 分 配 阶 段 基于 每 个 
割 所 识别 的 资源 集合 类 型 开始 向 任务 分 配 资 源 , 即 步骤 17 一 
务 的 AST 和 


[该 
于 


个 


表 


上 时 执行 任务 六 的 最 早 时 间 。 当 属于 相同 分 割 的 任 
上 限 U3。 在 这 种 情况 下 ， 

疙 为 插入 分 割 中 的 vi 间 的 
时 间 。 每 次 迭代 中 ， 拥 有 最 


低 AST 的 未 分 配 任务 考虑 为 待 分 配 任务 , 该 和 


E 务 将 分 配 至 与 任 


务 所 处 分 割 相 匹配 且 能 保证 及 时 

如 果 不 存 在 该 资源 ， 则 启用 资源 集合 类 型 中 的 新 实例 。 
算法 2 资源 分 配 过 程 

l. Procedure Reallocation((G Pp,R)) 


input:G =<V’E >,P partitions, 
Pp,R=R'1,...,Rm resources 
Ce—group P based on successor partition ID 
seach group Ci has one or more partitions 
order C based on the depandancy between the tasks 
NC;, Ci(i<7),Ci depends on Cr data 
for each Ci EC do 


oo 


执行 的 资源 集合 类 型 中 的 资源 。 
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录用 稿 薛 ” 凡 : DAG 分 割 模型 下 的 云 工 作 流 调 度 策 略 
9. for each P;E Ci do 最 差 情况 下 , DAG 分 割 数量 等 于 任务 数量 , 即 一 个 任务 为 一 个 
10. he—(ertcpi)/ees 分 割 ， 此 ，PBWS 算法 的 最 差 时 间 复 杂 度 为 
11. call AssignResource(h,P,R) O(VP+IPP+(IVIPD+IPIRD= OUVP+IVIAD 
12. for each v;:E P; do ) 

pa 全 
13. call UpdateESTEFT(v,h,G ’) | 六 ) 
14. end for Sh 六 ) ~ A 
2 2 站 天 本 

15. end for OT © MI 
16. end for 个 BE © “| 
17. jo Ca 一 Vdo (a) 工 作 流 DAG 结 构 (b)DAG 分 割 步骤 
18. AST(w) px(UB-LB)+LB: es 六 
19. AFTOD AST(V)+w:; 四 A 2 
20. end for a 人 | 2 > A 
21. end procudure wt = > 
2.5 算 例 说 明 党 {(c) 分 割 调 整 步骤 兴 (d) 资 源 分 配 步骤 

以 图 2 对 PBWS 算法 的 思想 进行 阐述 。 为 了 简化 描述 ， 售 图 2 算 例 说 明 


例 中 未 显示 计算 和 通信 代价 。 图 2 (b) 是 DAG 分 割 步 又 得 到 

3 ”仿真 实验 
的 结果 ， 每 个 任务 被 分 配 至 一 个 分 割 中 ; (c〉 是 分 割 调整 步 双 
得 到 的 结果 。 该 步骤 中 ， 任 务 如 满足 拥有 最 小 EST 条 件 ， 被 重 本 章 通过 仿真 实验 分 析 PBWS 算法 的 性 能 , 选择 IC-PCP 欠 
新 分 配 至 分 割 p2。 图 2(d) 的 资源 分 配 步 骤 中 ， 每 个 分 割 〈 除 ” 和 HEFTI1J 两 种 算法 作为 基准 算法 ， 选 择 的 云 计算 环境 仿真 工 
根 分 割 ) 标志 其 erter; 为 五 及 其 eos 值 。 在 该 算 例 中 ，H=40， 具 为 CloudSim， 输 入 工作 流 由 Pegasus 工作 流 发 生 器 得 到 
eest1=20，H=20，eesp=20。 由 于 ps 是 分 割 pi 和 ps 的 子 分 割 ， 这 (https://confluence.pegasus.isi.edu/display/pegasus/WorkflowGene 
两 个 分 割 通过 其 万 值 与 eew 值 相 除 识别 其 需要 的 资源 集合 类 型 ， rator)。 利 用 图 1 所 示 的 五 种 现实 世界 中 的 科学 工作 流 进行 实验 
这 表明 pi 的 资源 集合 类 型 为 2(R2),p2 的 资源 集合 类 型 为 1(R1)。 测试 ,包括 CyberShake、Epigenomics、LIGO、Montage 和 SIPHT， 
这 表明 在 pi 中 的 所 有 任务 被 分 配 至 Rs 中 的 资源 ，p2 中 的 所 有 为 每 种 工作 流 配置 1 000 个 任务 。 资 源 集合 R=R1,R2,R3,， 具体 来 
任务 被 分 配 至 Ri 中 的 资源 上 。 一 旦 相同 群 组 中 的 分 割 (拥有 相 说 ， 最 快 资源 Rs 的 价格 是 最 慢 资源 Ri 的 三 倍 ， 资 源 节点 间 的 
同 的 后 代 ) 识别 了 其 资源 集合 类 型 ， 即 可 获得 每 个 分 割 中 任务 带宽 设置 为 1 Gbps， 且 假设 可 用 的 资源 数量 是 不 受 限 制 的 ，p 
的 执行 次 序 和 每 个 分 割 的 eew。 然 后 拥有 已 识别 资源 集合 类 型 的 的 取 值 为 (0,0.5,1)。 

领导 分 割 告 之 其 群 组 成 员 开 始 执行 资源 集合 识别 阶段 。 该 算 例 3.1 性 能 指标 

中 ，P1 为 分 割 pz 的 父 分 割 。 然 而 六 并 未 作 改 变 ， 由 于 所 识别 的 实验 主要 观察 算法 的 执行 跨度 和 代价 指标 。 代 价 包括 任务 
资源 集合 类 型 2(R2?) 高 于 1(R1)。 任 务 的 执行 次 序 取决 于 所 在 的 的 执行 代价 、 资 源 初始 化 代价 和 数据 传输 代价 。 显 然 ， 在 调度 
层次 ， 如 pi 中 任务 的 执行 次 序 为 4o、、w、t4。 每 个 分 割 中 任 。” 方案 中 增加 资源 数量 对 总 体 代价 具有 重要 影响 。 因 此 ， 采 用 标 
务 的 AST 取决 于 6 值 。 换言之 , 如 果 分 配 单个 资源 至 每 个 分 割 佳 化 代价 Ne 比较 该 指标 性 能 , 该 指标 考虑 了 任务 执行 代价 和 所 
(08=1), 则 pi 中 任务 的 AST 分 别 为 0、10、20、30。 该 算 例 中 ， 使 用 的 资源 数量 。 对 于 每 个 调度 ， 将 获得 的 代价 除 以 在 价格 最 
假设 pi 中 每 个 任务 的 计算 代价 为 10。 如 果 假 设 h=0, pi 中 任务 低 的 资源 上 的 调度 代价 ， 该 值 代表 相 比 最 低 价 调度 所 获得 调度 
的 AST 则 分 别 为 0、10、10、20。 此 时 ， 力 和 ts 分 配 至 不 同 的 。” 方案 的 代价 程度 。 然 后 ， 将 该 值 乘 以 所 获 调度 方案 中 所 使 用 的 


i 
T 


0. 


资源 上 。 资源 数量 ， 即 
2.6 算法 时 间 复 杂 度 分 析 ce 
_ Ns = = (4) 
PBWS 算法 首先 需要 计算 每 个 任务 的 EST 和 EFT, 时 间 复 Se 


杂 度 为 O( 见 ; 然后 计算 关键 路 径 的 时 间 复杂 度 为 O(ITD)。 DAG ”其 中 : < 为 资源 上 执行 任务 的 数量 ; "为 该 调度 中 所 使 用 的 资源 
分 割 步骤 至 多 花费 O( 玫 ) 可 以 收敛 。 分 割 调整 步 又 中 ， 对 于 每 数量 ，sc 为 任务 调度 至 最 低 价 资源 上 的 代价 。 

个 任务 ， 计 算 其 子 任务 的 平均 EFT 的 时 间 复 杂 度 为 O(IVP)。 此 ”3.2 实验 结果 

外 ， 重 新 分 配 任务 的 时 间 复 杂 度 为 O(PI(P-D)， 因 此 ， 分 割 调 图 3 和 4 是 三 种 算法 在 执行 跨度 和 标准 化 代价 方面 的 性 能 
整 步骤 的 时 间 复 杂 度 总 体 为 OU 下 HP(P-1D)。 资 源 分 配 步 又 中 ， 比较 。 可 以 看 出 , 在 代价 上 PBWS 始终 优 于 其 他 算法 , 而 HEFT 
对 分 割 进行 排序 的 时 间 复 杂 度 为 O(P 门 。 将 分 割 划分 为 群 组 的 ”在 执行 跨度 上 优 于 其 他 算法 , 这 表明 PBWS 为 了 降低 代价 牺牲 
时 间 复 杂 度 为 O(|P)， 资 源 分 配 过 程 的 时 间 复 杂 度 为 O(IPIIR)。 ”了 部 分 执行 效率 。 具 体 地 ， 笔 者 根据 五 种 工作 流 的 结构 特征 分 
因此 ， 资 源 分 配 步骤 的 总 体 时 间 复 杂 度 为 O(|PP+IPI(1+|R)。 在 ” 成 三 个 部 分 进行 讨论 。 
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a) CyberShake 工作 流 。 对 于 CyberShake， 当 BbB 值 为 0.5 和 且 可 影响 最 终 的 执行 跨度 。 然 而 只 有 在 该 值 的 降低 使 得 分 配 至 
0 时 ， 即 算法 更 倾向 于 最 小 化 执行 跨度 时 ，PBWS 和 HEFT 拥 每 个 分 割 中 的 资源 数量 增加 才 会 拥有 这 种 效果 。 两 种 工作 流 在 
有 非常 相近 的 执行 跨度 (图 3 (a))， 且 仅仅 只 带 来 较 小 的 执行 。” 结构 上 拥有 一 致 性 ， 使 得 在 满足 数据 依赖 上 可 以 使 分 割 的 执行 
代价 的 增加 (图 4 (a))。 有 具体 地 ， 由 于 降低 B 值 可 以 导致 更 多 具有 更 好 的 连续 性 。 因 此 ， 在 这 种 条 件 下 ， 改 变 B 值 并 不 会 对 
的 资源 使 用 ， 且 CyberShake 工作 流 (图 1 (d)) 不 存在 瓶颈 任 。” PBWS 的 性 能 造成 巨大 影响 。 实 验 中 设置 HEFT 使 用 的 资源 数 
务 ,PBWS 所 构造 的 多 个 分 割 能 够 并 行 执行 从 而 降低 执行 跨度 。 ” 量 与 PBWS 相同 。 对 于 PBWS， 改 变 B 值 对 利用 的 资源 数量 带 
尽管 IC-PCP 得 到 的 执行 跨度 是 整体 最 小 的 ， 但 获得 这 种 更 好 ”来 了 更 小 的 变化 。 因 此 ， 降 低 B 值 对 于 HEFT 的 执行 跨度 影响 
的 性 能 是 以 更 多 的 资源 使 用 和 更 高 的 代价 为 代价 的 (图 4(a))。 ”很 小 。 但 总 体 而 言 ，HEFT 作为 一 种 贪 禁 算法 ， 可 以 获得 更 小 
此 外 ， 当 B=0 时 HEFT 拥有 更 高 的 代价 ， 这 是 由 于 HEFT 为 了 的 执行 跨度 ， 但 比较 PBWS 则 拥有 更 高 的 代价 。 
得 到 更 高 的 执行 跨度 性 能 利用 更 高 价 的 资源 。 c) Montage 和 SIPHT 工作 流 。 对 于 这 两 种 工作 流 ,， 结果 表 

b)Epigenomics 和 LIGO 工作 流 。 对 于 这 两 种 工作 流 ,PBWS ” 明 IC-PCP 在 大 多 数 情况 下 , 其 标准 化 代价 均 拥 有 最 差 的 性 能 ， 
获得 与 IC-PCP 相近 的 执行 跨度 (图 3 (b) 和 (c)), 但 PBWS ” 这 与 工作 流 的 结构 相关 。 在 Montage 中 ， 处 于 最 后 的 层次 中 的 
拥有 比 IC-PCP 更 低 的 代价 (图 4 (b) 和 (c))。 对 于 标准 化 代 ”任务 形成 了 一 种 管道 结构 ,这 对 IC-PCP 具有 巨大 的 负面 影响 ， 
价 ， 由 于 IC-PCP 获得 了 与 B 无 关 的 相同 执行 跨度 ， 所 以 期 望 。” 这 主要 源 于 此 时 最 长 关键 路 径 的 长 度 在 决定 算法 效率 上 具有 更 
得 到 的 调度 也 拥有 相同 的 代价 。 对 于 PBWS， 得 到 的 执行 跨度 。 重要 的 影响 。 在 SIPHT 中 ， 由 于 出 现 了 左 侧 路 径 ， 所 以 效果 与 
取决 于 B 值 和 工作 流 结 构 。 降 低 B 值 可 以 增加 使 用 资源 的 数量 ， ”Montage 类 似 。 
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表 1 给 出 算法 在 两 个 诉 
次 证 明 PBWS 得 到 的 调度 比较 其 他 算法 拥有 更 低 的 代价 ， 


E 能 指标 上 的 具体 值 表现 。 


是 以 牺牲 微小 的 执行 跨度 得 到 的 。 


其 结果 再 


I 


仅 


表 1 调度 性 能 

执行 跨度 标准 化 代价 

工作 流 类 型 法 
my 后 | 三 0 记 l 
PBWS 194.88 1196.56 0.07 0.01 
CyberShake IC-PCP 107.22 213.90 0.14 0.18 
HEFT 185.22 580.19 0.35 0.06 
PBWS 23089.17 23186.92 0.07 0.07 
Epigenomics IC-PCP 21919.12 21919.12 0.27 0.27 
HEFT 20583.27 20695.50 0.36 0.38 
PBWS 1394.06 1427.70 0.15 0.15 
LIGO IC-PCP 1389.97 1395.13 0.22 0.24 
HEFT 784.01 878.84 0.73 0.57 
PBWS 341.37 370.48 0.13 0.10 
Montage IC-PCP 174.77 349.55 0.73 0.76 
HEFT 180.22 180.86 0.72 0.55 
PBWS 5261.95 7893.58 0.08 0.07 
SIPHT IC-PCP 3563.85 5261.95 1.04 1.09 
HEFT 2630.98 2630.98 1.66 0.82 


总 体 来 说 ， 在 不 同类 型 的 科学 


合 性 能 是 较 优化 的 。 相 比 同类 型 算法 ，PBWS 为 了 进 和 


率 与 代价 的 同步 


过 初始 任务 DAG 


ti 化， 将 优化 目 


标 分 两 阶段 进行 
分 割 和 分 割 结构 调整 后 的 任务 重 分 配 来 提高 
执行 效率 ， 降 低 执行 跨度 ， 后 一 阶段 则 在 资源 上 
行 代价 ， 使 得 资源 空闲 时 间 更 少 ， 资 源 利用 更 充分 。 
优 ， 但 在 多 指标 的 综合 性 能 上 可 以 更 


区 


[ 作 流 结构 下 ，PBWS 的 综 


了 执行 效 


目 


4 ”结束 语 


空闲 
在 单项 指标 上 无 法 实现 最 
加 均衡 ， 也 更 符合 云 环境 


射 时 优化 了 执 
虽然 算法 


阶段 通 


BINY 


的 实际 调度 环境 及 工作 流 调度 优化 。 


为 了 实现 云 计 算 中 工作 流 的 调度 优化 ， 本 文 提出 J 
于 DAG 分 割 的 工作 流 
整 及 资源 分 配 三 个 阶段 和 
度 与 执行 代价 的 均衡 调度 
牲 较 小 的 执行 效率 ] 


周 度 算法 。 
的 工作 流 


| 


型 


型 算法 。 下 一 步 的 看 


究 工作 将 旨 


。 实 验 结果 证 明 


下 销 得 到 更 低 的 执行 代价 ， 
中 于 ， 将 云 次 


E 考 虑 到 优化 


标 中 


台 已 
月 


算法 通过 任务 分 割 、 
度 模式 ， 实 现 了 
了 所 提 算 法 能 够 以 


王 务 执行 跨 


其 性 能 优 


源 方 执行 任务 的 


分 割 调 


同时 给 出 工作 流 执行 的 截止 其 


户 费 用 约束 ， 建 立 多 约束 条 件 下 的 多 目标 优化 调度 模型 ， 并 在 


ChinaXiv 合 作 期 : 
薛 凡 : DAG 分 割 模型 下 的 云 工 作 流 


新 的 调度 模型 下 设计 相应 的 DAG 分 割 算法 ， 实 现 多 目标 调度 
优化 。 
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